Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

31장. 멀티모달, 비전·음성 모델

이 장의 목표 텍스트 외에 이미지·음성을 다루는 로컬 모델을 어떤 게 있고 어떻게 시작하는지 정리합니다.

스크린샷 분석·차트 해석·받아쓰기까지.


31.1 큰 그림

종류입력 → 출력대표 모델
VL / Vision이미지 + 텍스트 → 텍스트Qwen2.5-VL, Gemma 3, LLaVA
OCR 특화이미지 → 텍스트GOT-OCR, dots.ocr
STT (음성인식)오디오 → 텍스트Whisper, Parakeet
TTS (음성합성)텍스트 → 오디오XTTS, Kokoro, F5-TTS
Audio LLM오디오 → 텍스트 (이해)Qwen2.5-Omni
이미지 생성텍스트 → 이미지(Stable Diffusion 류)

이 책은 비전·STT·TTS 중심.


31.2 비전 모델 — VL (Vision-Language)

이미지를 입력으로 받아 텍스트로 답하는 모델.

활용:

  • 스크린샷 → 설명
  • 차트·표 → 데이터 해석
  • 영수증 → JSON
  • UI 디자인 피드백
  • 손글씨 OCR 보조

대표 모델

모델크기특징
Qwen2.5-VL-7B7B가볍고 빠름
Qwen2.5-VL-32B32B차트·문서·UI 강함
Qwen2.5-VL-72B72B최상위 품질
Gemma 3 (27B 등)4~27B다국어, Google
LLaVA-1.6-34B34B오픈소스 클래식
InternVL8B~76B큰 모델 강세
MiniCPM-V8B작지만 강함

31.3 VL 모델 받기·돌리기 — LM Studio

LM Studio 검색에서 “VL” 필터.

Qwen2.5-VL-7B-Instruct (MLX 4bit)

Chat 탭에서 모델 로드 후, 하단 입력창 옆 클립 아이콘으로 이미지 첨부.

[클립 📎] → 이미지 선택
입력: "이 그래프에서 가장 큰 매출 월을 알려줘"

응답이 흐르면 성공.


31.4 VL — Ollama

$ ollama pull qwen2.5vl:7b

CLI에서 이미지 첨부:

$ ollama run qwen2.5vl:7b
>>> 다음 이미지의 내용을 설명해줘. /Users/kjj/Desktop/chart.png

또는 API:

$ curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5vl:7b",
  "prompt": "이 이미지를 설명해줘",
  "images": ["BASE64_인코딩된_이미지_문자열"]
}'

31.5 OCR 특화 모델

일반 VL이 안 잡는 정밀 OCR(특히 한국어·표·수식)은 OCR 특화 모델 이 더 정확합니다.

모델특징
GOT-OCR 2.0표·수식·악보까지
dots.ocr한국어·다국어 강함
Tesseract클래식, 빠름, 정확도는 보통

문서 디지털화·영수증 자동화 등에서 일반 VL과 조합.


31.6 STT — Whisper

음성을 텍스트로.

OpenAI Whisper가 사실상 표준.

설치

$ brew install whisper-cpp   # 또는
$ pip install openai-whisper

사용 (whisper-cpp)

$ whisper-cli -m models/ggml-large-v3.bin \
  -f input.m4a -l ko -otxt -of result
옵션의미
-m모델 파일
-l ko한국어
-otxt텍스트로 저장

MLX 버전

$ pip install mlx-whisper
$ mlx_whisper input.m4a --model mlx-community/whisper-large-v3-mlx

맥에서 더 빠름.

Whisper 모델 크기

모델한국어 정확도속도
tiny낮음매우 빠름
base보통빠름
small좋음보통
medium좋음보통
large-v3최상느림
turbo매우 좋음빠름 (large-v3 대비 절반 시간)

권장: 회의록은 large-v3 또는 turbo.


31.7 TTS — 텍스트를 음성으로

모델특징
Kokoro빠르고 가벼움, 다국어
XTTS v2화자 클로닝, 영어 강함
F5-TTS자연스러움 우수
Bark표현력 있지만 느림

한국어 자연스러운 TTS는 아직 영어 대비 약합니다. Kokoro 가 한국어 지원도 빠르게 좋아지는 중.

빠른 시작 (Kokoro)

$ pip install kokoro
from kokoro import KPipeline

pipe = KPipeline(lang_code='ko')
gen = pipe("안녕하세요. 로컬 음성 합성입니다.", voice='kf_v0')

for i, (graphemes, phonemes, audio) in enumerate(gen):
    # audio: numpy array
    ...

31.8 Audio LLM — 음성을 그대로 이해

STT를 거치지 않고 음성을 직접 입력으로 받는 모델.

Qwen2.5-Omni-7B  (텍스트·이미지·오디오 멀티모달)

활용:

  • 사장님 음성 메모 → 정리된 요약
  • 받아쓰기 + 이해 한 번에

아직 신생 분야, 모델 무겁고 변동 큼.


31.9 활용 — 비전 + RAG

스크린샷·문서 사진을 모은 사내 자료를 OCR → 청크 → RAG 로 만들 수 있습니다.

[PDF / 스크린샷]
       ↓
[GOT-OCR or VL 모델로 텍스트화]
       ↓
[청크 + 임베딩 → 벡터 DB]
       ↓
[일반 RAG (26장)]

회사 보안문서·옛 스캔자료를 검색 가능하게 만드는 흔한 패턴.


31.10 비전 모델 메모리 감각

64GB 맥 기준 권장.

모델Q4 메모리추천
7B-VL~5GB✅ 빠름
32B-VL~18GB✅ 균형
72B-VL~40GB⚠ 빡빡

비전 입력은 prefill 시간이 길어지는 경향. 큰 이미지는 1024px 정도로 축소 후 입력 권장.


31.11 자주 만나는 문제

이미지 첨부했는데 답이 텍스트만 보고 답함

  • 비전 가능한 GGUF 인지 확인 (vision projector 파일 포함)
  • LM Studio가 vision 어댑터를 자동 로드했는지 확인
  • 모델이 VL 인지 (Qwen2.5-VL ≠ Qwen2.5)

한국어 OCR 정확도가 낮음

  • 일반 VL 보다 OCR 특화 모델 시도
  • 이미지를 가로 1500px 이상으로
  • 흑백·고대비 전처리

Whisper가 영어로 받아씀

  • -l ko 명시
  • 첫 30초가 영어로 시작하면 잘못 감지함 → 한국어 구간으로 잘라서

이 장에서 기억할 한 가지

로컬에서도 비전·음성이 됩니다.

  • VL 모델: Qwen2.5-VL / Gemma 3
  • 음성: Whisper (대용량) + Kokoro·F5-TTS

다 합치면 회의 자동 받아쓰기 → 요약 → 보고서 까지 로컬에서 가능합니다.


손으로 해볼 것

1. VL 모델 첫 사용

$ ollama pull qwen2.5vl:7b

LM Studio에서 모델 로드 후 스크린샷 한 장을 첨부하고 설명을 요청해 보세요.

2. Whisper로 회의록 받아쓰기

$ brew install whisper-cpp
$ whisper-cli -m models/ggml-large-v3.bin -f meeting.m4a -l ko -otxt

내 회의 녹음 5분짜리를 텍스트로 만들어 보세요. 이게 39장(회의록 요약 파이프라인)의 입력이 됩니다.


여기까지가 5부의 끝 입니다.

여기까지 마치면 로컬 AI는 더 이상 “채팅 도구“가 아닙니다. 내 업무에 직접 연결되는 인프라가 됩니다.

다음 부(6부)에서는 깊이 들어가는 심화 주제 — 파인튜닝, 직접 양자화, 안전성 — 를 다룹니다. 선택 학습입니다.